<!DOCTYPE html>
<html>
<head>
  <meta charset="utf-8">
  
  <title>怎样进行大数据的入门级学习？ | 上海科鹄网络科技有限公司</title>
  <meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=1">
  <meta name="description" content="数据科学并没有一个独立的学科体系，统计学，机器学习，数据挖掘，数据库，分布式计算，云计算，信息可视化等技术或方法来对付数据。">
<meta name="keywords" content="Big Data,startup">
<meta property="og:type" content="article">
<meta property="og:title" content="怎样进行大数据的入门级学习？">
<meta property="og:url" content="http://ikohoo.com/blog/2017/07/07/how-to-learn-bigdata/index.html">
<meta property="og:site_name" content="上海科鹄网络科技有限公司">
<meta property="og:description" content="数据科学并没有一个独立的学科体系，统计学，机器学习，数据挖掘，数据库，分布式计算，云计算，信息可视化等技术或方法来对付数据。">
<meta property="og:updated_time" content="2017-07-19T06:32:24.119Z">
<meta name="twitter:card" content="summary">
<meta name="twitter:title" content="怎样进行大数据的入门级学习？">
<meta name="twitter:description" content="数据科学并没有一个独立的学科体系，统计学，机器学习，数据挖掘，数据库，分布式计算，云计算，信息可视化等技术或方法来对付数据。">
  
    <link rel="alternate" href="/atom.xml" title="上海科鹄网络科技有限公司" type="application/atom+xml">
  
  
    <link rel="icon" href="/favicon.png">
  
  
    <link href="//fonts.googleapis.com/css?family=Source+Code+Pro" rel="stylesheet" type="text/css">
  
  <link rel="stylesheet" href="/blog/css/style.css">
  

</head>

<body>
  <div id="container">
    <div id="wrap">
      <header id="header">
  <div id="banner"></div>
  <div id="header-outer" class="outer">
    <div id="header-title" class="inner">
      <h1 id="logo-wrap">
        <a href="/blog/" id="logo">上海科鹄网络科技有限公司</a>
      </h1>
      
        <h2 id="subtitle-wrap">
          <a href="/blog/" id="subtitle">国内领先的云计算和大数据解决方案咨询服务商</a>
        </h2>
      
    </div>
    <div id="header-inner" class="inner">
      <nav id="main-nav">
        <a id="main-nav-toggle" class="nav-icon"></a>
        
          <a class="main-nav-link" href="/blog/">Home</a>
        
          <a class="main-nav-link" href="/blog/archives">Archives</a>
        
      </nav>
      <nav id="sub-nav">
        
          <a id="nav-rss-link" class="nav-icon" href="/atom.xml" title="Flux RSS"></a>
        
        <a id="nav-search-btn" class="nav-icon" title="Rechercher"></a>
      </nav>
      <div id="search-form-wrap">
        <form action="//google.com/search" method="get" accept-charset="UTF-8" class="search-form"><input type="search" name="q" class="search-form-input" placeholder="Search"><button type="submit" class="search-form-submit">&#xF002;</button><input type="hidden" name="sitesearch" value="http://ikohoo.com/blog"></form>
      </div>
    </div>
  </div>
</header>
      <div class="outer">
        <section id="main"><article id="post-how-to-learn-bigdata" class="article article-type-post" itemscope itemprop="blogPost">
  <div class="article-meta">
    <a href="/blog/2017/07/07/how-to-learn-bigdata/" class="article-date">
  <time datetime="2017-07-07T05:05:46.000Z" itemprop="datePublished">2017-07-07</time>
</a>
    
  <div class="article-category">
    <a class="article-category-link" href="/blog/categories/Big-Data/">Big Data</a>
  </div>

  </div>
  <div class="article-inner">
    
    
      <header class="article-header">
        
  
    <h1 class="article-title" itemprop="name">
      怎样进行大数据的入门级学习？
    </h1>
  

      </header>
    
    <div class="article-entry" itemprop="articleBody">
      
        <p>数据科学并没有一个独立的学科体系，统计学，机器学习，数据挖掘，数据库，分布式计算，云计算，信息可视化等技术或方法来对付数据。</p>
<a id="more"></a>
<p>数据科学并没有一个独立的学科体系，统计学，机器学习，数据挖掘，数据库，分布式计算，云计算，信息可视化等技术或方法来对付数据。但从狭义上来看，我认为数据科学就是解决三个问题：</p>
<ol>
<li><p>data pre-processing;</p>
</li>
<li><p>data interpretation；</p>
</li>
<li><p>data modeling and analysis.</p>
</li>
</ol>
<p>这也就是我们做数据工作的三个大步骤：</p>
<p>1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程，才能形成高质量的数据；</p>
<p>2、我们想看看数据“长什么样”，有什么特点和规律；</p>
<p>3、按照自己的需要，比如要对数据贴标签分类，或者预测，或者想要从大量复杂的数据中提取有价值的且不易发现的信息，都要对数据建模，得到output。</p>
<p>这三个步骤未必严谨，每个大步骤下面可能依问题的不同也会有不同的小步骤，但按我这几年的经验来看，按照这个大思路走，数据一般不会做跑偏。</p>
<p>这样看来，数据科学其实就是门复合型的技术，既然是技术就从编程语言谈起吧，为了简练，只说说R和Python。但既然是荐数据科学方面的书，我这里就不提R/Python编程基础之类的书了，直接上跟数据科学相关的。</p>
<h1 id="R-programming"><a href="#R-programming" class="headerlink" title="R programming"></a>R programming</h1><p>如果只是想初步了解一下R语言已经R在数据分析方面的应用，那不妨就看看这两本：</p>
<p><strong>R in action</strong>：我的R语言大数据101。其实对于一个没有任何编程基础的人来说，一开始就学这本书，学习曲线可能会比较陡峭。但如果配合上一些辅助材料，如官方发布的R basics（<a href="http://cran.r-project.org/doc/contrib/usingR.pdf），stackoverflow上有tag-R的问题集（Newest" target="_blank" rel="external">http://cran.r-project.org/doc/contrib/usingR.pdf），stackoverflow上有tag-R的问题集（Newest</a> ‘r’ Questions），遇到复杂的问题可在上面搜索，总会找到解决方案的。这样一来，用这本书拿来入门学习也问题不大。而且这本书作者写得也比较轻松，紧贴实战。</p>
<p><strong>Data analysis and graphics using R</strong>：使用R语言做数据分析的入门书。这本书的特点也是紧贴实战，没有过多地讲解统计学理论，所以喜欢通过情境应用来学习的人应该会喜欢这本入门书。而且这本书可读性比较强，也就是说哪怕你手头没电脑写不了代码，有事没事拿出这本书翻一翻，也能读得进去。</p>
<p>但如果你先用R来从事实实在在的数据工作，那么上面两本恐怕不够，还需要这些：</p>
<p><strong>Modern applied statistics with S</strong>：这本书里统计学的理论就讲得比较多了，好处就是你可以用一本书既复习了统计学，又学了R语言。（S/Splus和R的关系就类似于Unix和Linux，所以用S教程学习R，一点问题都没有）</p>
<p><strong>Data manipulation with R</strong>：这本书实务性很强，它教给你怎么从不同格式的原始数据文件里读取、清洗、转换、整合成高质量的数据。当然和任何一本注重实战的书一样，本书也有丰富的真实数据或模拟数据供你练习。对于真正从事数据处理工作的人来说，这本书的内容非常重要，因为对于任何研究，一项熟练的数据预处理技能可以帮你节省大量的时间和精力。否则，你的研究总是要等待你的数据。</p>
<p><strong>R Graphics Cookbook</strong>：想用R做可视化，就用这本书吧。150多个recipes，足以帮你应付绝大多数类型的数据。以我现在极业余的可视化操作水平来看，R是最容易做出最漂亮的图表的工具了。</p>
<p><strong>An introduction to statistical learning with application in R</strong>：这本书算是著名的the element of statistical learning的姊妹篇，后者更注重统计（机器）学习的模型和算法，而前者所涉及的模型和算法原没有后者全面或深入，但却是用R来学习和应用机器学习的很好的入口。</p>
<p><strong>A handbook of statistical analysis using R</strong>：这本书内容同样非常扎实，很多统计学的学生就是用这本书来学习用R来进行统计建模的。</p>
<h1 id="Python"><a href="#Python" class="headerlink" title="Python"></a>Python</h1><p><strong>Think Python</strong>，<strong>Think Stats</strong>，<strong>Think Bayes</strong>：这是Allen B. Downey写的著名的Think X series三大卷。其实是三本精致的小册子，如果想快速地掌握Python在统计方面的操作，好好阅读这三本书，认真做习题，答案链接在书里有。这三本书学通了，就可以上手用Python进行基本的统计建模了。</p>
<p><strong>Python For Data Analysis</strong>： 作者是pandas的主要开发者，也正是Pandas使Python能够像R一样拥有dataframe的功能，能够处理结构比较复杂的数据。这本书其实analysis讲得不多，说成数据处理应该更合适。掌握了这本书，处理各种糟心的数据就问题不大了。</p>
<p><strong>Introduction to Python for Econometrics</strong>, <strong>Statistics and Data Analysis</strong>：这本书第一章就告诉你要安装Numpy, Scipy, Matplotlib, Pandas, IPython等等。然后接下来的十好几章就是逐一介绍这几个库该怎么用。很全面，但读起来比较枯燥，可以用来当工具书。</p>
<p><strong>Practical Data Analysis</strong>： 这本书挺奇葩，貌似很畅销，但作者把内容安排得东一榔头西一棒子，什么都讲一点，但一个都没讲透。这本书可以作为我们学习数据分析的一个索引，看到哪块内容有意思，就顺着它这个藤去摸更多的瓜。</p>
<p><strong>Python Data Visualization Cookbook</strong>： 用Python做可视化的教材肯定不少，我看过的也就这一本，觉得还不错。其实这类书差别都不会很大，咬住一本啃下来就是王道。</p>
<h1 id="Exploratory-Data-Analysis-和-Data-Visualization"><a href="#Exploratory-Data-Analysis-和-Data-Visualization" class="headerlink" title="Exploratory Data Analysis 和 Data Visualization"></a>Exploratory Data Analysis 和 Data Visualization</h1><p><strong>Exploratory Data Analysis</strong>：John Tukey写于1977年的经典老教材，是这一领域的开山之作。如今EDA已经是统计学里的重要一支，但当时还是有很多人对他的工作不屑一顾。可他爱数据，坚信数据可以以一种出人意料的方式呈现出来。正是他的努力，让数据可视化成为一门无比迷人的技术。但这本书不推荐阅读了，内容略过时。要想完整地了解EDA，推荐下一本：</p>
<p><strong>Exploratory Data Analysis with MATLAB</strong>：这本书虽然标题带了个MATLAB，但实际上内容几乎没怎么讲MATLAB，只是每讲一个方法的时候就列出对应的MATALB函数。这本书的重要之处在于，这是我读过的讲EDA最系统的一本书，除了对visualization有不输于John Tucky的讲解外，对于高维的数据集，通过怎样的方法才能让我们从中找到潜在的pattern，这本书也做了详尽的讲解。全书所以案例都有对应的MATALB代码，而且还提供了GUI（图形用户界面）。所以这本书学起来还是相当轻松愉悦的。</p>
<p><strong>Visualize This</strong>：中译本叫“鲜活的数据”，作者是个“超级数据迷”，建立了一个叫<a href="http://flowingdata.com的网页展示他的数据可视化作品，这本书告诉你该选择什么样的可视化工具，然后告诉你怎样visualize关系型数据、时间序列、空间数据等，最后你就可以用数据讲故事了。如果你只想感受一下数据可视化是个什么，可以直接点开下面这个链接感受下吧！A" target="_blank" rel="external">http://flowingdata.com的网页展示他的数据可视化作品，这本书告诉你该选择什么样的可视化工具，然后告诉你怎样visualize关系型数据、时间序列、空间数据等，最后你就可以用数据讲故事了。如果你只想感受一下数据可视化是个什么，可以直接点开下面这个链接感受下吧！A</a> tour through the visualization zoo（A Tour Through the Visualization Zoo）</p>
<h1 id="Machine-Learning-amp-Data-Mining"><a href="#Machine-Learning-amp-Data-Mining" class="headerlink" title="Machine Learning &amp; Data Mining"></a>Machine Learning &amp; Data Mining</h1><p>这一块就不多说了，不是因为它不重要，而是因为它太太太重要。所以这一部分就推两本书，都是”世界名著“，都比较难读，需要一点点地啃。这两本书拿下，基本就算是登堂入室了。其实作为机器学习的延伸和深化，概率图模型（PGM）和深度学习（deep learning）同样值得研究，特别是后者现在简直火得不得了。但PGM偏难，啃K.Daphne那本大作实在太烧脑，也没必要，而且在数据领域的应用也不算很广。deep learning目前工业界的步子迈得比学术界的大，各个domain的应用如火如荼，但要有公认的好教材问世则还需时日，所以PGM和deep learning这两块就不荐书了。</p>
<p><strong>The Element of Statistical Learning</strong>：要学机器学习，如果让我只推荐一本书，我就推荐这本巨著。Hastie、Tibshirani、Friedman这三位大牛写书写得太用心了，大厦建得够高够大，结构也非常严谨，而且很有前瞻性，纳入了很多前沿的内容，而不仅仅是一部综述性的教材。（图表也做得非常漂亮，应该是用R语言的ggplot2做的。）这本书注重讲解模型和算法本身，所以需要具备比较扎实的数理基础，啃起这本书来才不会太吃力。事实上掌握模型和算法的原理非常重要。机器学习（统计学习）的库现在已经非常丰富，即使你没有完全搞懂某个模型或算法的原理和过程，只要会用那几个库，机器学习也能做得下去。但你会发现你把数据代进去，效果永远都不好。但是，当你透彻地理解了模型和算法本身，你再调用那几个库的时候，心情是完全不一样的，效果也不一样。</p>
<p><strong>Data Mining: Concepts and Techniques</strong>, by Jiawei Han and Micheline Kamber 数据挖掘的教材汗牛充栋，之所以推荐这本韩家炜爷爷的，是因为虽然他这本书的出发点是应用，但原理上的内容也一点没有落下，内容非常完整。而且紧跟时代，更新的很快，我看过的是第二版，就已经加进去了social network analysis这种当时的前沿内容。现在已经有第三版了，我还没看过，但应该也加入了不少新内容。其实这本书并不难读，只是篇幅较长，啃起来比较耗时。</p>
<p>其实这两本书里单拎出来一块内容可能又是几本书的节奏，比如bayesian方法，再拿出两三本书来讲也不为过，我个人用到的比较多，而且也确实有不少好书。但并非是所有data scientist都要用到，所以这一块就不再细说。</p>
<h1 id="还有一些印象比较深刻的书："><a href="#还有一些印象比较深刻的书：" class="headerlink" title="还有一些印象比较深刻的书："></a>还有一些印象比较深刻的书：</h1><p><strong>Big Data Glossary</strong>： 主要讲解大数据处理技术及工具，内容涵盖了NoSQL，MapReduce，Storage，Servers，NLP库与工具包，机器学习工具包，数据可视化工具包，数据清洗，序列化指南等等。总之，是一本辞典式的大数据入门指导。</p>
<p><strong>Mining of Massive Datasets</strong>：这本书是斯坦福大学Web Mining的讲义，里面很多内容与韩家炜的Data Mining那本书重合，但这本书里详细地讲了MapReduce的设计原理，PageRank（Google创业时期的核心排序算法，现在也在不断优化更新）讲解得也比较详细。</p>
<p><strong>Developing Analytic Talent</strong>： 作者是个从事了十几年数据工作的geek，技术博客写得很有个人风格，写的内容都比较偏门，通常只有具备相关数据处理经验的人能体会出来，丝毫不照顾初学者的感受。比如他会谈到当数据流更新太快时该怎么办，或者MapReduce在什么时候不好用的问题，才不管你懂不懂相关基础原理。所以这本书不太适合初学者阅读。这本书其实是作者的博客文章的集结，用how to become a data scientist的逻辑把他近几年的博客文章串联了起来。</p>
<p><strong>Past, Present and Future of Statistical Science</strong>：这本书是由COPSS（统计学社主席委员会，由国际各大统计学会的带头人组成）在50周年出版的一本纪念册，里面有50位统计学家每人分别贡献出的一两篇文章，有的回忆了自己当年如何走上统计学这条路，有的探讨了一些统计学的根本问题，有的谈了谈自己在从事的前沿研究，有的则给年轻一代写下了寄语。非常有爱的一本书。</p>
<p>其它资料<br><strong>Harvard Data Science</strong>：这是H大的Data science在线课，我没有修过，但口碑很好。这门课需要费用8千刀左右，比起华盛顿大学的4千刀的Data science在线课虽贵一倍，但比斯坦福的14千刀要便宜将近一半（而且斯坦福的更偏计算机）。如果想自学，早有好心人分享了slides: （<a href="https://drive.google.com/folderview?id=0BxYkKyLxfsNVd0xicUVDS1dIS0k&amp;usp=sharing）和homeworks" target="_blank" rel="external">https://drive.google.com/folderview?id=0BxYkKyLxfsNVd0xicUVDS1dIS0k&amp;usp=sharing）和homeworks</a> and solutions: （<a href="https://github.com/cs109/content）" target="_blank" rel="external">https://github.com/cs109/content）</a></p>
<p><strong>PyData</strong>：PyData是来自各个domain的用Python做数据的人每年举行一次的聚会，期间会有各路牛人举行一些规模不大的seminar或workshop，有好心人已经把video上传到github，有兴趣的去认领吧（DataTau/datascience-anthology-pydata · GitHub）</p>
<h1 id="工具"><a href="#工具" class="headerlink" title="工具"></a>工具</h1><p><strong>R/Python/MATLAB</strong>（必备）：如果是做数据分析和模型开发，以我的观察来看，使用这三种工具的最多。R生来就是一个统计学家开发的软件，所做的事也自然围绕统计学展开。MATLAB虽然算不上是个专业的数据分析工具，但因为很多人不是专业做数据的，做数据还是为了自己的domain expertise（特别是科学计算、信号处理等），而MATLAB又是个强大无比的Domain expertise工具，所以很多人也就顺带让MATLAB也承担了数据处理的工作，虽然它有时候显得效率不高。Python虽然不是做数据分析的专业软件，但作为一个面向对象的高级动态语言，其开源的生态使Python拥有无比丰富的库，Numpy, Scipy 实现了矩阵运算/科学计算，相当于实现了MATLAB的功能，Pandas又使Python能够像R一样处理dataframe，scikit-learn又实现了机器学习。</p>
<p><strong>SQL（必备）</strong>：虽然现在人们都说传统的关系型数据库如Oracle、MySQL越来越无法适应大数据的发展，但对于很多人来说，他们每天都有处理数据的需要，但可能一辈子都没机会接触TB级的数据。不管怎么说，不论是用关系型还是非关系型数据库，SQL语言是必须要掌握的技能，用什么数据库视具体情况而定。</p>
<p><strong>MongoDB（可选）</strong>：目前最受欢迎的非关系型数据库NoSQL之一，不少人认为MongoDB完全可以取代mySQL。确实MongoDB方便易用，扩展性强，Web2.0时代的必需品。</p>
<p><strong>Hadoop/Spark/Storm（可选）</strong>: MapReduce是当前最著名也是运用最广泛的分布式计算框架，由Google建立。Hadoop/Spark/storm都是基于MapReduce的框架建立起来的分布式计算系统，要说他们之间的区别就是，Hadoop用硬盘存储数据，Spark用内存存储数据，Storm只接受实时数据流而不存储数据。一言以蔽之，如果数据是离线的，如果数据比较复杂且对处理速度要求一般，就Hadoop，如果要速度，就Spark，如果数据是在线的实时的流数据，就Storm。</p>
<p><strong>OpenRefine（可选）</strong>：Google开发的一个易于操作的数据清洗工具，可以实现一些基本的清洗功能。</p>
<p><strong>Tableau（可选）</strong>：一个可交互的数据可视化工具，操作简单，开箱即用。而且图表都设计得非常漂亮。专业版1999美刀，终身使用。媒体和公关方面用得比较多。</p>
<p><strong>Gephi（可选）</strong>：跟Tableau类似，都是那种可交互的可视化工具，不需要编程基础，生成的图表在美学和设计上也是花了心血的。更擅长复杂网络的可视化。</p>

      
    </div>
    <footer class="article-footer">
      <a data-url="http://ikohoo.com/blog/2017/07/07/how-to-learn-bigdata/" data-id="cja3l1msj001v4stki345q6xc" class="article-share-link">Partager</a>
      
      
  <ul class="article-tag-list"><li class="article-tag-list-item"><a class="article-tag-list-link" href="/blog/tags/Big-Data/">Big Data</a></li><li class="article-tag-list-item"><a class="article-tag-list-link" href="/blog/tags/startup/">startup</a></li></ul>

    </footer>
  </div>
  
    
<nav id="article-nav">
  
    <a href="/blog/2017/07/15/markdown-start/" id="article-nav-newer" class="article-nav-link-wrap">
      <strong class="article-nav-caption">Récent</strong>
      <div class="article-nav-title">
        
          Markdown 11种基本语法
        
      </div>
    </a>
  
  
    <a href="/blog/2017/07/03/remote-team/" id="article-nav-older" class="article-nav-link-wrap">
      <strong class="article-nav-caption">Ancien</strong>
      <div class="article-nav-title">Zapier 创始人：想要带好远程团队，你需要这样一份管理指南</div>
    </a>
  
</nav>

  
</article>

</section>
        
          <aside id="sidebar">
  
    
  <div class="widget-wrap">
    <h3 class="widget-title">Catégories</h3>
    <div class="widget">
      <ul class="category-list"><li class="category-list-item"><a class="category-list-link" href="/blog/categories/AI/">AI</a></li><li class="category-list-item"><a class="category-list-link" href="/blog/categories/Big-Data/">Big Data</a></li><li class="category-list-item"><a class="category-list-link" href="/blog/categories/CloudCompute/">CloudCompute</a></li><li class="category-list-item"><a class="category-list-link" href="/blog/categories/Efficiency/">Efficiency</a></li><li class="category-list-item"><a class="category-list-link" href="/blog/categories/RESTful-API/">RESTful API</a></li><li class="category-list-item"><a class="category-list-link" href="/blog/categories/skills/">skills</a></li><li class="category-list-item"><a class="category-list-link" href="/blog/categories/数据仓库/">数据仓库</a></li></ul>
    </div>
  </div>


  
    
  <div class="widget-wrap">
    <h3 class="widget-title">Mot-clés</h3>
    <div class="widget">
      <ul class="tag-list"><li class="tag-list-item"><a class="tag-list-link" href="/blog/tags/AI/">AI</a></li><li class="tag-list-item"><a class="tag-list-link" href="/blog/tags/Big-Data/">Big Data</a></li><li class="tag-list-item"><a class="tag-list-link" href="/blog/tags/CloudCompute/">CloudCompute</a></li><li class="tag-list-item"><a class="tag-list-link" href="/blog/tags/CloudStack/">CloudStack</a></li><li class="tag-list-item"><a class="tag-list-link" href="/blog/tags/Docker/">Docker</a></li><li class="tag-list-item"><a class="tag-list-link" href="/blog/tags/Efficiency/">Efficiency</a></li><li class="tag-list-item"><a class="tag-list-link" href="/blog/tags/Eucalyptus/">Eucalyptus</a></li><li class="tag-list-item"><a class="tag-list-link" href="/blog/tags/FusionCloud/">FusionCloud</a></li><li class="tag-list-item"><a class="tag-list-link" href="/blog/tags/HBase/">HBase</a></li><li class="tag-list-item"><a class="tag-list-link" href="/blog/tags/Hadoop/">Hadoop</a></li><li class="tag-list-item"><a class="tag-list-link" href="/blog/tags/Hive/">Hive</a></li><li class="tag-list-item"><a class="tag-list-link" href="/blog/tags/Openstack/">Openstack</a></li><li class="tag-list-item"><a class="tag-list-link" href="/blog/tags/RESTful/">RESTful</a></li><li class="tag-list-item"><a class="tag-list-link" href="/blog/tags/Resource/">Resource</a></li><li class="tag-list-item"><a class="tag-list-link" href="/blog/tags/Slack/">Slack</a></li><li class="tag-list-item"><a class="tag-list-link" href="/blog/tags/Spark/">Spark</a></li><li class="tag-list-item"><a class="tag-list-link" href="/blog/tags/Team-Management/">Team Management</a></li><li class="tag-list-item"><a class="tag-list-link" href="/blog/tags/Wiki/">Wiki</a></li><li class="tag-list-item"><a class="tag-list-link" href="/blog/tags/cloudcompute/">cloudcompute</a></li><li class="tag-list-item"><a class="tag-list-link" href="/blog/tags/lucene/">lucene</a></li><li class="tag-list-item"><a class="tag-list-link" href="/blog/tags/markdown/">markdown</a></li><li class="tag-list-item"><a class="tag-list-link" href="/blog/tags/solr/">solr</a></li><li class="tag-list-item"><a class="tag-list-link" href="/blog/tags/startup/">startup</a></li><li class="tag-list-item"><a class="tag-list-link" href="/blog/tags/数据仓库/">数据仓库</a></li></ul>
    </div>
  </div>


  
    
  <div class="widget-wrap">
    <h3 class="widget-title">Nuage de mot-clés</h3>
    <div class="widget tagcloud">
      <a href="/blog/tags/AI/" style="font-size: 10px;">AI</a> <a href="/blog/tags/Big-Data/" style="font-size: 18px;">Big Data</a> <a href="/blog/tags/CloudCompute/" style="font-size: 16px;">CloudCompute</a> <a href="/blog/tags/CloudStack/" style="font-size: 10px;">CloudStack</a> <a href="/blog/tags/Docker/" style="font-size: 10px;">Docker</a> <a href="/blog/tags/Efficiency/" style="font-size: 14px;">Efficiency</a> <a href="/blog/tags/Eucalyptus/" style="font-size: 10px;">Eucalyptus</a> <a href="/blog/tags/FusionCloud/" style="font-size: 10px;">FusionCloud</a> <a href="/blog/tags/HBase/" style="font-size: 10px;">HBase</a> <a href="/blog/tags/Hadoop/" style="font-size: 10px;">Hadoop</a> <a href="/blog/tags/Hive/" style="font-size: 10px;">Hive</a> <a href="/blog/tags/Openstack/" style="font-size: 10px;">Openstack</a> <a href="/blog/tags/RESTful/" style="font-size: 12px;">RESTful</a> <a href="/blog/tags/Resource/" style="font-size: 10px;">Resource</a> <a href="/blog/tags/Slack/" style="font-size: 12px;">Slack</a> <a href="/blog/tags/Spark/" style="font-size: 10px;">Spark</a> <a href="/blog/tags/Team-Management/" style="font-size: 14px;">Team Management</a> <a href="/blog/tags/Wiki/" style="font-size: 20px;">Wiki</a> <a href="/blog/tags/cloudcompute/" style="font-size: 10px;">cloudcompute</a> <a href="/blog/tags/lucene/" style="font-size: 10px;">lucene</a> <a href="/blog/tags/markdown/" style="font-size: 10px;">markdown</a> <a href="/blog/tags/solr/" style="font-size: 10px;">solr</a> <a href="/blog/tags/startup/" style="font-size: 14px;">startup</a> <a href="/blog/tags/数据仓库/" style="font-size: 10px;">数据仓库</a>
    </div>
  </div>

  
    
  <div class="widget-wrap">
    <h3 class="widget-title">Archives</h3>
    <div class="widget">
      <ul class="archive-list"><li class="archive-list-item"><a class="archive-list-link" href="/blog/archives/2017/11/">十一月 2017</a></li><li class="archive-list-item"><a class="archive-list-link" href="/blog/archives/2017/09/">九月 2017</a></li><li class="archive-list-item"><a class="archive-list-link" href="/blog/archives/2017/07/">七月 2017</a></li><li class="archive-list-item"><a class="archive-list-link" href="/blog/archives/2017/06/">六月 2017</a></li><li class="archive-list-item"><a class="archive-list-link" href="/blog/archives/2017/05/">五月 2017</a></li><li class="archive-list-item"><a class="archive-list-link" href="/blog/archives/2017/02/">二月 2017</a></li><li class="archive-list-item"><a class="archive-list-link" href="/blog/archives/2016/06/">六月 2016</a></li><li class="archive-list-item"><a class="archive-list-link" href="/blog/archives/2016/05/">五月 2016</a></li><li class="archive-list-item"><a class="archive-list-link" href="/blog/archives/2016/03/">三月 2016</a></li><li class="archive-list-item"><a class="archive-list-link" href="/blog/archives/2016/02/">二月 2016</a></li><li class="archive-list-item"><a class="archive-list-link" href="/blog/archives/2015/12/">十二月 2015</a></li><li class="archive-list-item"><a class="archive-list-link" href="/blog/archives/2015/11/">十一月 2015</a></li><li class="archive-list-item"><a class="archive-list-link" href="/blog/archives/2015/10/">十月 2015</a></li><li class="archive-list-item"><a class="archive-list-link" href="/blog/archives/2015/09/">九月 2015</a></li><li class="archive-list-item"><a class="archive-list-link" href="/blog/archives/2015/08/">八月 2015</a></li><li class="archive-list-item"><a class="archive-list-link" href="/blog/archives/2015/06/">六月 2015</a></li></ul>
    </div>
  </div>


  
    
  <div class="widget-wrap">
    <h3 class="widget-title">Articles récents</h3>
    <div class="widget">
      <ul>
        
          <li>
            <a href="/blog/2017/11/17/build-warehouse/">搭建数据仓库的流程简介</a>
          </li>
        
          <li>
            <a href="/blog/2017/09/19/centos-lamp/">CentOS下yum安装LAMP</a>
          </li>
        
          <li>
            <a href="/blog/2017/09/19/mysql-user/">Mysql用户和权限管理</a>
          </li>
        
          <li>
            <a href="/blog/2017/09/18/unicode/">Unicode(UTF-8, UTF-16)令人混淆的概念</a>
          </li>
        
          <li>
            <a href="/blog/2017/09/07/restful-api-practice/">RESTful API 设计最佳实践</a>
          </li>
        
      </ul>
    </div>
  </div>

  
</aside>
        
      </div>
      <footer id="footer">
  
  <div class="outer">
    <div id="footer-info" class="inner">
      &copy; 2017 Leo.Liu<br>
      Propulsé by <a href="http://hexo.io/" target="_blank">Hexo</a>
    </div>
  </div>
</footer>
    </div>
    <nav id="mobile-nav">
  
    <a href="/blog/" class="mobile-nav-link">Home</a>
  
    <a href="/blog/archives" class="mobile-nav-link">Archives</a>
  
</nav>
    

<script src="//ajax.googleapis.com/ajax/libs/jquery/2.0.3/jquery.min.js"></script>


  <link rel="stylesheet" href="/blog/fancybox/jquery.fancybox.css">
  <script src="/blog/fancybox/jquery.fancybox.pack.js"></script>


<script src="/blog/js/script.js"></script>

  </div>
</body>
</html>